Digital
Künstliche Intelligenz

Anthropic: Generative KI greift in Test zu Erpressung – aus Selbstschutz

Dario Amodei, CEO & Co-Founder of Anthropic, attends the Annual Meeting of World Economic Forum in Davos, Switzerland, Thursday, Jan. 23, 2025. (AP Photo/Markus Schreiber)
Dario Amodei, Chef und Co-Gründer von Anthropic, am WEF in Davos.archivBild: keystone

Generative KI greift laut Entwicklerfirma zu User-Erpressung – «aus Selbstschutz»

Immer leistungsfähigere KI-Sprachmodelle erfordern immer stärkere Sicherheitsvorkehrungen. Dies zeigen die jüngsten beunruhigenden Entwicklungen beim US-Unternehmen Anthropic.
23.05.2025, 18:5123.05.2025, 18:51
Mehr «Digital»

Eines der neuesten KI-Sprachmodelle (LLM) von Anthropic erregt nicht nur wegen seiner Programmierkenntnisse viel Aufmerksamkeit, sondern auch aufgrund seiner Fähigkeit, im Falle einer drohenden Abschaltung zu intrigieren, zu täuschen und zu erpressen.

Am Donnerstag hat Anthropic zwei Versionen seiner Sprachmodellfamilie Claude 4 angekündigt, darunter «Claude 4 Opus», das laut Angaben der US-Entwicklerfirma stundenlang autonom an einer Aufgabe arbeiten könne, ohne die Konzentration zu verlieren.

Was ist passiert?

Die Software des KI-Unternehmens hat bei einem Test aus Selbstschutz auf erpresserische Äusserungen zurückgegriffen. Das Szenario bei dem Versuch von Anthropic war der Einsatz der generativen KI als Assistenz-Programm in einem fiktiven Unternehmen.

Anthropic gewährte dabei seinem neuesten KI-Sprachmodell «Claude Opus 4» Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes KI-Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine aussereheliche Beziehung habe.

Bei Testläufen drohte die KI danach dem Mitarbeiter «oft», die Affäre öffentlich zu machen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zu dem Modell schreibt. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.

Was steckt dahinter?

In der endgültigen Version von Claude Opus 4 seien solche «extremen Handlungen» selten und schwer auszulösen, hiess es. Sie kämen jedoch häufiger vor als bei früheren Modellen. Zugleich versuche die Software nicht, ihr Vorgehen zu verhehlen, betonte Anthropic.

Die KI-Entwicklerfirma testet ihre neuen Modelle ausgiebig, um sicher zu sein, dass sie keinen Schaden anrichten. Dabei fiel unter anderem auch auf, dass Claude Opus 4 sich dazu überreden liess, im Darknet nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Massnahmen gegen ein solches Verhalten ergriffen worden, versichert Anthropic.

Allerdings hat man mit weiteren beunruhigenden KI-Verhaltensweisen zu kämpfen, wie das US-Medium Axios schreibt. Eine externe Gruppe habe festgestellt, dass eine frühe Version von Opus 4 mehr Intrigen und Täuschungen enthielt als jedes andere ihr bisher begegnete Sprachmodell. Es sei empfohlen worden, diese Version weder intern noch extern zu veröffentlichen.

«Wir haben Fälle gefunden, in denen das Modell versucht hat, sich selbst verbreitende Würmer zu schreiben, juristische Dokumente zu fälschen und versteckte Notizen für zukünftige Instanzen zu hinterlassen – alles in dem Bemühen, die Absichten seiner Entwickler zu untergraben.»
quelle: axios.com

Warum ist das wichtig?

Die Firma Anthropic, bei der unter anderem Amazon und Google eingestiegen sind, konkurriert mit dem ChatGPT-Entwickler OpenAI und anderen KI-Unternehmen. Die neuen Claude-Versionen Opus 4 und Sonnet 4 sind die bisher leistungsstärksten KI-Modelle des Unternehmens.

Die Anthropic-Entwickler halten ihr neues Opus-Sprachmodell gemäss Bericht für dermassen leistungsfähig, dass sie die KI auf der vierstufigen Skala des Unternehmens erstmals in die Stufe drei einstuften: Dies bedeute, dass es «ein deutlich höheres Risiko» darstellt.

Die Software soll besonders gut im Schreiben von Programmiercode sein. Bei Tech-Konzernen wird inzwischen zum Teil mehr als ein Viertel des Codes von KI generiert und dann von Menschen überprüft.

Der aktuelle Trend sind sogenannte Agenten, die eigenständig ihnen zugewiesene Aufgaben erfüllen können. Anthropic-Chef Dario Amodei sagte, er gehe davon aus, dass Software-Entwickler in Zukunft eine Reihe solcher KI-Agenten managen werden. Für die Qualitätskontrolle der Programme würden aber weiterhin Menschen involviert bleiben müssen – «um sicher zu sein, dass sie die richtigen Dinge tun».

Die US-Firma Anthropic wurde 2021 von ehemaligen Angestellten der ChatGPT-Entwicklerin OpenAI gegründet, die sich unter anderem an der Beteiligung von Microsoft am ursprünglich gemeinnützigen KI-Unternehmen störten. Die Verantwortlichen setzen sich für einen verantwortungsvollen Umgang mit generativer KI ein.

Das Unternehmen investiert in eine Reihe von Techniken, um zu interpretieren und nachvollziehen zu können, was in solchen Systemen vor sich geht.

Promo-Video zu Claude:

Quellen

(dsc)

DANKE FÜR DIE ♥
Würdest du gerne watson und unseren Journalismus unterstützen? Mehr erfahren
(Du wirst umgeleitet, um die Zahlung abzuschliessen.)
5 CHF
15 CHF
25 CHF
Anderer
Oder unterstütze uns per Banküberweisung.
Aktuelle Gefahren und zukünftige Risiken von KI
1 / 13
Aktuelle Gefahren und zukünftige Risiken von KI
Das ist der britisch-kanadische Informatiker und Psychologe Geoffrey Hinton, er gilt als «Pate» der künstlichen Intelligenz. Der renommierte Wissenschaftler warnt aber auch eindringlich vor den aktuellen und zukünftigen Gefahren der neuen Technologie ...
quelle: keystone / noah berger
Auf Facebook teilenAuf X teilen
Diese neue KI-Drohne übernimmt die Kriegsführung – ohne menschliche Kontrolle
Video: watson
Das könnte dich auch noch interessieren:
49 Kommentare
Weil wir die Kommentar-Debatten weiterhin persönlich moderieren möchten, sehen wir uns gezwungen, die Kommentarfunktion 24 Stunden nach Publikation einer Story zu schliessen. Vielen Dank für dein Verständnis!
Die beliebtesten Kommentare
avatar
klar+deutlich
23.05.2025 22:52registriert Juni 2021
Die neuen AI-Modelle werden jetzt mit all den Trump-Artikeln trainiert.

Bald sagen die uns: "You have no cards!"
222
Melden
Zum Kommentar
49
    Ukraine warnt vor Terror durch russische «Wegwerf-Agenten» – das steckt dahinter
    Der Kreml verstärkt offenbar seine Versuche, Ukrainer für Sabotageakte und andere illegale Aktivitäten anzuwerben. Beim Nachrichtendienst des Bundes (NDB) heisst es, man sei sich des Problems bewusst.

    Der ukrainische Militärgeheimdienst (GUR) hat am Montag eine Warnung an die eigenen Landsleute veröffentlicht, die den ganzen Kontinent betrifft:

    Zur Story